Enrichissement d'ontologies dans le secteur de l'eau douce en environnement Internet distribué et multilingue
نویسندگان
چکیده
Notre travail s’inscrit dans le contexte du projet européen SEMIDE (Système euro méditerranéen d’information sur les savoir-faire dans le domaine de l’eau). Le SEMIDE vise à développer une ontologie spécifique aux connaissances dans le domaine de l’eau. Ce travail s’est basé dans un premier temps sur un thésaurus du domaine de l’eau, or les ressources d’informations ne cessent de s’accroître de sources hétérogènes dans les formats, mais aussi dans le vocabulaire employé (agences de l’eau, ministères,...) engendrant une ontologie insuffisante et peu structurée. Cette ontologie doit pouvoir s’enrichir au fur et à mesure que de nouveaux documents apparaissent, mais également rester cohérente. Nous nous intéressons à deux grandes parties : lŠannotation des ressources et l’enrichissement de l’ontologie globale définie par la communauté du SEMIDE. Ces deux grandes parties ne sont pas indépendantes étant donné que l’enrichissement de l’ontologie est fonction des nouvelles ressources et des concepts obtenus lors de l’annotation. La suite de cet article traitera la deuxième partie. Notre hypothèse est qu’il serait intéressant de rajouter des relations ontologiques (est-un, partie-de, etc.) à l’ontologie du SEMIDE. Celle-ci prendrait donc la forme d’un pseudo-réseau sémantique ou les noeuds seraient des acceptions. Cependant, nous ne concevons la mise en place d’un tel réseau sémantique que via une automatisation poussée. La validation de certaines occurrences de relations entre acceptions pouvant être éventuellement l’objet d’un travail manuel d’un expert. Cette automatisation peut être envisagée à partir de deux types de sources : des corpus monolingues d’un même domaine technique, et des collections de bi (ou tri)-textes (textes traductions l’un de l’autres). Ce faisant, les occurrences de relations doivent d’abord être identifiées dans les parties monolingues avant d’être migrées dans la partie interlingue. Nous attaquons le problème de l’enrichissement ontologique selon deux biais. La premier, via l’exploitation de paires de textes traduits, est la mise en correspondance directe de terme identifiés contre traduction mutuelle. Une acception (un sens de mot) peut être artificiellement créée, mais le problème des doublons potentiels et de l’identification et élimination n’est pas directement résolu. La seconde approche, à partir de corpus monolingue, consiste pour des termes cibles, à extraire le plus grand nombre des relations qu’ils peuvent entretenir avec d’autres mots. Les termes cibles sont identifiés comme tels via des méthodes classique de
منابع مشابه
Feasibility of groundwater withdrawal in a coral island
Groundwater on a small coral island occurs in the form of a lens floating on saline water. The freshwater lens is highly sensitive to various stresses such as pumping, sea tide, etc. Since groundwater is the only source of freshwater on the island, it is not only being utilized for various purposes but also there is growing demand for increased pumpage. In order to assess the impact of addition...
متن کاملUn algorithme multi-agent de classification pour la construction d'ontologies dynamiques
Résumé. La construction d’ontologies à partir de textes reste une tâche coûteuse en temps qui justifie l’émergence de l’Ontology Learning. Notre système, Dynamo, s’inscrit dans cette mouvance, en apportant une approche originale basée sur une architecture multi-agent adaptative. En particulier, l’article présente le cœur de notre approche, un algorithme distribué de classification hiérarchique ...
متن کاملDu Calcul Séquentiel au Cloud Computing
Deux nouveaux concepts de calcul sont en train de modifier le monde informatique, comme l’a fait Internet à partir des années 80 : ce sont les concepts de «Grilles de calcul et de données» (Grid Computing et Datagrid) et de « Calcul dans les nuages » (Cloud Computing). Ils sont apparus pour répondre à une demande croissante des scientifiques et des industriels en puissance de calcul, en ressour...
متن کاملA Constraint Satisfaction based Approach to View Selection in a Distributed Context
Les vues matérialisées sont utilisées dans les systèmes de gestion de bases de données commercialisés pour accélérer le temps de traitement des requêtes. Cette technique est aussi très utile dans les entrepôts de données pour améliorer les performances des requêtes décisionnelles. Cependant, le problème de sélection de vues a été étudié surtout dans un contexte centralisé. Dans cet article, nou...
متن کاملEnrichissement sémantique de méta-modèles XML et UML pour une transformation bidirectionnelle de modèles
RÉSUMÉ. XML est devenu depuis la fin des années 90 le standard pour échanger et envoyer de l’information sur Internet. Le W3C a ensuite préconisé l’utilisation de XML Schema pour définir la structure des documents XML. A ce jour, la modélisation graphique de modèles XML Schema n’est pas standardisée. L’introduction d’un formalisme de définition de modèles est un moyen de rendre la modélisation ...
متن کامل